基于16S的细菌群落功能预测工具Tax4Fun2

宏基因组 2022-05-08

The following article is from 生信小白鱼 Author 生信小白鱼鲤小白

基于16S的细菌群落功能预测工具Tax4Fun2

回想第一次接触微生物组分析时是2017年，那会儿主流的两个基于16S的细菌群落功能预测工具就是PICRUSt和Tax4Fun，均可以获得类似于宏基因组的功能丰度数据。不过当时来看Tax4Fun更推荐一些，Tax4Fun以 SILVA数据库的物种注释为基础（支持115、119和123三个版本，对应的程序最后一次更新是2015年，当时仅时隔2年），而PICRUSt以GreenGene数据库的物种注释为基础（最后更新是2013年，当时已时隔4年）。并且当时SILVA已经取代GreenGene成为了主流的16S细菌物种注释库，最后小编选择了Tax4Fun作分析。

其实再往后来看，这两个工具所依据的数据库也已经很老了。现在是2020年，SILVA都更新到138版本了，即便再使用Tax4Fun也很勉强（Tax4Fun最高仅支持SILVA123，但是再返回使用旧的数据库注释明显不是一个好选择）。

当然，生信工具也是与时俱进的。为了满足如今的所需，PICRUSt和 Tax4Fun都推出了全新版本，即PICRUSt2和Tax4Fun2。PICRUSt2的使用请参考隔壁的推文，本篇简介Tax4Fun2。

评估微生物群落的功能和冗余度是环境微生物学的主要挑战。Tax4Fun2是一个R程序包，可基于16S rRNA基因序列快速预测原核生物的功能谱和功能冗余。通过合并用户定义的、特定于栖息地的基因组信息，可以显著提高预测功能图谱的准确性和鲁棒性（Wemheuer et al, 2018）。与旧版Tax4Fun相比，Tax4Fun2的具有如下优点。

（1）不再局限于仅SILVA的特定版本注释的OTU丰度表，允许直接以OTU代表序列作为输入，通过与指定参考数据库的比对实现物种注释。除了Tax4Fun2提供的已构建好的参考集（相比之前大幅扩大），也允许我们提供自定义的参考集，使用非常灵活。

（2）侧重于原核数据，但也可以合并真核数据。

（3）提供了计算特定功能冗余的方法，对于预测特定功能在环境扰动期间丢失的可能性至关重要。

（4）精度和稳定性显著提升。

（5）目前Tax4Fun2仍处于不断的更新状态。

Tax4Fun2的工作流程。首先将16S rRNA基因序列与参考序列（可以为内置的，也允许使用用户自定义的）进行比对，以识别最近的邻居。根据最近邻居搜索的结果，汇总各样本的OTU丰度。一个关联矩阵（AM）包含在16S rRNA搜索中识别的参考功能概况。整合OTU丰度与AM功能谱，预测每个样品的宏基因组。

下文继续简介Tax4Fun2的使用。如果想了解关于旧版Tax4Fun的内容，可参考前文。

Tax4Fun2官方文档：https://github.com/bwemheu/Tax4Fun2

下文部分测试结果文件及R代码等，可在百度盘获取（提取码：kr9p）：

https://pan.baidu.com/s/1nogKmaDSnexF34_WlfEWng

Tax4Fun2安装及配置

本篇的所有操作都是在linux平台下进行的，包括程序包的安装及测试过程。Windows或Mac平台下的方法可能存在不同，我未再尝试，大家若有需要可参考官方文档的说明。

参考自：https://github.com/bwemheu/Tax4Fun2

#下载 tax4fun2 程序包，shell 命令行
wget https://github.com/bwemheu/Tax4Fun2/releases/download/1.1.5/Tax4Fun2_1.1.5.tar.gz

然后打开R，手动安装Tax4Fun2程序包（它是一个R包）。

#安装 tax4fun2
install.packages(pkgs = 'Tax4Fun2_1.1.5.tar.gz', repos = NULL, source = TRUE)

#加载
library(Tax4Fun2)

随后，需要配置Tax4Fun2依赖环境，包括参考数据库，以及功能实现的其它R包或程序等。总体上来说安装无任何难度，都是命令行傻瓜式安装的。

加载Tax4Fun2包后，使用内部函数buildReferenceData()下载并构建默认的Tax4Fun2参考数据库，以及检查是否需要安装ape和seqinr包。此外，它还将测试用户PATH中是否存在blastn，为了确保下载成功，该功能还将使用md5sums自动检查下载数据的一致性。

#下载并构建默认的 Tax4Fun2 参考数据库
#path_to_working_directory='.'，Tax4Fun2 默认在当前工作路径中构建库，如有需要，通过该参数指定位置
#use_force=FALSE，是否覆盖已有的文件夹，默认为 FALSE
#install_suggested_packages=TRUE，安装 ape 和 seqinr 包，默认为 TRUE
buildReferenceData(path_to_working_directory = '.', use_force = FALSE, install_suggested_packages = TRUE)

等待一会儿，执行成功后，可在当前工作路径下看到生成新路径“Tax4Fun2_ReferenceData_v2”，即为当前构建的Tax4Fun2参考数据库。在随后的功能预测环节，物种注释、基因组功能预测等，将通过这些库文件实现。

安装依赖，该函数将下载blast（v2.9.0）的当前最新版本，并将二进制程序放置在Tax4Fun2参考库路径中。另外，它还将测试ape和seqinr包是否可用。

#安装依赖
#path_to_working_directory，默认值为在当前工作路径中构建的库，如有需要，通过该参数指定位置
#use_force=FALSE，是否覆盖已有的文件夹，默认为 FALSE
#install_suggested_packages=TRUE，安装 ape 和 seqinr 包，默认为 TRUE
buildDependencies(path_to_reference_data = './Tax4Fun2_ReferenceData_v2',
use_force = FALSE, install_suggested_packages = TRUE)

Tax4Fun2参考数据库路径“Tax4Fun2_ReferenceData_v2”中，新添加了blast程序。

Tax4Fun2预测细菌群落功能

接下来，测试Tax4Fun2的使用。

默认过程参考自：https://github.com/bwemheu/Tax4Fun2

1、测试数据集

使用官方提供的数据集测试。

#此命令将自动下载 Tax4Fun2 测试数据
#path_to_working_directory='.'，自动下载到当前工作路径下，如有需要，通过该参数指定位置
getExampleData(path_to_working_directory = '.')

或者在以下链接手动获取（此外，我在网盘中也保存了一份）。

https://cloudstor.aarnet.edu.au/plus/s/4htgFinDIpzOuKK/download

通过如上命令获取后，这些测试数据自动下载到当前工作路径（以下除“Tax4Fun2_ReferenceData_v2”外，都是）。

接下来使用其中两个重要的文件。

“KELP_otu_table.txt”，就是常说的OTU丰度表（尽管它不是以OTU作为命名，但在习惯上，请允许我继续这样称呼），仅OTU ID及其在各样本（列）中的丰度信息，无OTU注释列。

“KELP_otus.fasta”，即各OTU的代表16S rRNA序列，fasta文件。

2、群落功能预测

第一步，物种注释

可以看到，和旧版Tax4Fun相比，新版Tax4Fun2中不再要求输入带SILVA特定版本注释的OTU丰度表。Tax4Fun2中，将使用提供的OTU代表16S rRNA序列，和已构建好的参考数据库中的已知物种的16S rRNA序列进行比对（默认调用blastn程序实现），根据相似性获得物种注释。

#物种注释
#指定 OTU 代表序列、Tax4Fun2 库的位置、参考数据库版本、序列比对（blastn）线程数等
runRefBlast(path_to_otus = 'KELP_otus.fasta', path_to_reference_data = './Tax4Fun2_ReferenceData_v2',
path_to_temp_folder = 'Kelp_Ref99NR', database_mode = 'Ref99NR',
use_force = TRUE, num_threads = 4)

Tax4Fun2参考库“Tax4Fun2_ReferenceData_v2”中，有SILVA、NR库等可选（不妨自己点开看一下），上述使用了Ref99NR。

运行等待一会儿后，工作路径下获得“Kelp_Ref99NR”，存放了比对结果，输入序列和库中目标序列的最佳匹配。

第二步，KEGG Orthology（KO）功能及代谢途径丰度预测

在获得物种注释后，继续根据物种基因组的功能特征，结合OTU丰度表给出的物种丰度信息，推断群落功能丰度。

#预测群落功能
#指定 OTU 丰度表、Tax4Fun2 库的位置、参考数据库版本、上步的物种注释结果路径等
makeFunctionalPrediction(path_to_otu_table = 'KELP_otu_table.txt', path_to_reference_data = './Tax4Fun2_ReferenceData_v2',
    path_to_temp_folder = 'Kelp_Ref99NR', database_mode = 'Ref99NR',
    normalize_by_copy_number = TRUE, min_identity_to_reference = 0.97, normalize_pathways = FALSE)

#或者
makeFunctionalPrediction(path_to_otu_table = 'KELP_otu_table.txt', path_to_reference_data = './Tax4Fun2_ReferenceData_v2',
    path_to_temp_folder = 'Kelp_Ref99NR', database_mode = 'Ref99NR',
    normalize_by_copy_number = TRUE, min_identity_to_reference = 0.97, normalize_pathways = TRUE)

normalize_by_copy_number=TRUE，对于很多细菌而言，一个个体可能包含多条16S（多拷贝16S），因此推荐在原始OTU 16S rRNA丰度表的基础上，根据物种所含16S rRNA拷贝数对物种丰度进行标准化，得到校正16S rRNA拷贝数后的OTU丰度表后进行功能丰度映射。

normalize_pathways=FALSE，将每个KO的相对丰度关联到它所属的每个pathway；normalize_pathways=TRUE，每个KO的相对丰度平均分配给分配给它的所有pathway。

最后获得两个结果文件，如下所示。

“functional_prediction.txt”，预测到的功能基因在各样本中的相对丰度，功能基因映射到KO功能中（即KO第4级分类单元）。根据KO ID及功能描述信息，若有感兴趣的，可在KEGG官网（https://www.genome.jp/kegg/pathway.html）查询获得更多细节。

“pathway_prediction.txt”，将功能基因丰度映射到其所属的代谢途径（KEGG pathway，即KO第3级分类单元）中，获得各样本中各pathway的相对丰度。在这里也能看到Tax4Fun2和早期版本的Tax4Fun相比的一个改进点，就是将这些pathway所属的更高级KO分类单元也给了出来，方便我们归类分析；而早期版本的Tax4Fun中是没有这些高级分类信息的（通常还需手动添加，我在前文Tax4Fun教程中也提到了手动添加到方法）。

3、统计分析

获得群落功能丰度表后，就可以按照OTU丰度表的统计分析方法，去执行类似的分析了。这点可以找一些文献作参考，看别人是怎样做的。例如，首先计算特定功能丰度在组间的显著性，获得组间差异显著的功能，然后再从数据库官网上查询该功能的细节，解释生物学现象等。

Tax4Fun2的其它实用功能

除了基于16S rRNA丰度的细菌群落功能预测，Tax4Fun2还提供了其它很多实用功能。上述我们下载了Tax4Fun2的示例数据。除了OTU丰度表以及OTU代表序列外，还有很多其它文件，继续使用这些示例数据作展示。

同样地，参考自：https://github.com/bwemheu/Tax4Fun2

构建自定义参考集

Tax4Fun2还允许我们自定义构建参考集，充分体现了它的灵活性。

1、提取SSU序列

指定一个单一物种基因组序列fasta文件，或者包含多个基因组fasta文件的文件夹。基因组序列中必须含有至少一个拷贝的16S rRNA基因序列，运行命令可获取其中的16S rRNA序列，并删除“空”基因组。

#提取 SSU 序列，16S rRNA
#给定单个基因组
extractSSU(genome_file = 'OneProkaryoticGenome.fasta', file_extension = 'fasta',
path_to_reference_data = './Tax4Fun2_ReferenceData_v2')

#给定多个基因组
extractSSU(genome_folder = 'MoreProkaryoticGenomes', file_extension = 'fasta',
path_to_reference_data = './Tax4Fun2_ReferenceData_v2')

2、为原核基因组分配功能

类似地，指定一个单一物种基因组序列fasta文件，或者包含多个基因组fasta文件的文件夹。Tax4Fun2将调用prodigal、diamond blast等程序，实现类似原核物种基因组功能注释的过程。

#为原核基因组分配功能
#给定单个基因组
assignFunction(genome_file = 'OneProkaryoticGenome.fasta', file_extension = 'fasta',
path_to_reference_data = './Tax4Fun2_ReferenceData_v2', num_of_threads = 1, fast = TRUE)

#给定多个基因组
assignFunction(genome_folder = 'MoreProkaryoticGenomes/', file_extension = 'fasta',
path_to_reference_data = './Tax4Fun2_ReferenceData_v2', num_of_threads = 1, fast = TRUE)

3、生成参考数据

提取SSU序列以及完成基因组功能分配后，对于每个给定的基因组至少获得两个文件：一个记录SSU序列，一个记录功能注释概况。最后指定这些文件所在的文件夹并提供正确的文件扩展名，生成最终数据集。

#生成参考数据，文档中提供了 3 种方法
#推荐选择第二种，该命令包含一个 uclust 聚类步骤，可消除数据中的冗余
# 1) Generate user-defined reference data without uclust from a single genome
generateUserData(path_to_reference_data = './Tax4Fun2_ReferenceData_v2', path_to_user_data = '.',
    name_of_user_data = 'User_Ref0', SSU_file_extension = '_16SrRNA.ffn', KEGG_file_extension = '_funPro.txt')

# 2) Generate user-defined reference data without uclust
generateUserData(path_to_reference_data = './Tax4Fun2_ReferenceData_v2', path_to_user_data = 'MoreProkaryoticGenomes',
    name_of_user_data = 'User_Ref1', SSU_file_extension = '_16SrRNA.ffn', KEGG_file_extension = '_funPro.txt')

# 3) Generate user-defined reference data without uclust
generateUserDataByClustering(path_to_reference_data = './Tax4Fun2_ReferenceData_v2', path_to_user_data = 'MoreProkaryoticGenomes',
    name_of_user_data = 'User_Ref2', SSU_file_extension = '_16SrRNA.ffn', KEGG_file_extension = '_funPro.txt', use_force = TRUE)

计算（多）功能冗余指数（functional redundancy indices，FRI）

计算KEGG功能的系统发育分布（高FRI->高冗余度，低FRI ->低冗余度，并可能随群落变化而丢失）。

##计算（多）功能冗余指数（FRIs）
#OTU 代表序列与数据库参考序列的 blast
runRefBlast(path_to_otus = 'Water_otus.fna', path_to_reference_data = './Tax4Fun2_ReferenceData_v2',
path_to_temp_folder = 'Water_Ref99NR', database_mode = 'Ref99NR', use_force = TRUE, num_threads = 4)

#计算 FRIs 值
calculateFunctionalRedundancy(path_to_otu_table = 'Water_otu_table.txt', path_to_reference_data = './Tax4Fun2_ReferenceData_v2',
path_to_temp_folder = 'Water_Ref99NR', database_mode = 'Ref99NR', min_identity_to_reference = 0.97)

参考文献

Wemheuer F, Taylor J A, Daniel R, et al. Tax4Fun2: a R-based tool for the rapid prediction of habitat-specific functional profiles and functional redundancy based on 16S rRNA gene marker gene sequences. bioRxiv, 2018.

系列教程：微生物组入门 Biostar 微生物组宏基因组

专业技能：学术图表高分文章生信宝典不可或缺的人

一文读懂：宏基因组寄生虫益处进化树

必备技能：提问搜索 Endnote

文献阅读热心肠 SemanticScholar Geenmedical

扩增子分析：图表解读分析流程统计绘图

16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun

在线工具：16S预测培养基生信绘图

科研经验：云笔记云协作公众号

编程模板: Shell R Perl

生物科普: 肠道细菌人体上的生命生命大跃进细胞暗战人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难，我们建立了“宏基因组”专业讨论群，目前己有国内外5000+ 一线科研人员加入。参与讨论，获得专业解答，欢迎分享此文至朋友圈，并扫码加主编好友带你入群，务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份，另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助，首先阅读《如何优雅的提问》学习解决问题思路，仍未解决群内讨论，问题不私聊，帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战，关注“宏基因组”

点击阅读原文，跳转最新文章目录阅读

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

基于16S的细菌群落功能预测工具Tax4Fun2

猜你喜欢

写在后面

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

生成图片，分享到微信朋友圈

基于16S的细菌群落功能预测工具Tax4Fun2

猜你喜欢

写在后面

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡